import pandas as pd

in_file=""
# engine，可以简单的处理一下数据集的问题
data=pd.read_csv(in_file,engine="python")

#简单的查看列信息
data.head()
data.shape
#所有的列信息
data.columns.values

# 写出数据
data.to_csv("",index=False,encoding="utf-8",sep="\t")

# 查询单列
year=data["year"]

# 查询多列
year=data[["year","geo_count"]]

# 过滤
geo_count=data["geo_count"]
# 这样数据会被修改
geo_count[geo_count>90]=90

# 将数据进行复制 ，可以修改下数据
data_copy=data.copy(deep=True)

# 自定义函数
def myfunc(x):
    if x>90:
        return 90
    else:
        return x

data["ec_count"]=data["ec_count"].apply(myfunc)

#唯一性
data["anzsic06"].unique()

#分组
groupby=data.groupby("anzsic06").agg({"geo_count":["mean"]})